谷歌最前沿：人工智能唇读术、多语言神经机器翻译、隔空感应物体

战略前沿技术 2022-04-11

‍

谷歌人工智能唇读术完虐人类，仅凭5千小时电视节目！

人类古老的技艺再次沦陷

编者注：人工智能抢人类饭碗的趋势越来越明显了，最近，它又瞄准了一个新行业，而且一出手就比该行业专家们做的好。

主角还是 AI 大咖谷歌DeepMind，这次他们与英国牛津大学合作，通过机器学习大量的 BBC 节目，来学习一项全新的技能：唇读术。可怕的是，人工智能不仅学会了，而且让唇读专家们自愧不如。

唇读是人类一项独特的技艺，也是非常困难的一件事，它对于语言语境和知识理解的要求并不亚于视觉上的线索，然而 AI 又做到了。

AI 系统的学习对象是近 5000 小时的 BBC 各类节目，包括 Newsnight、BBC Breakfast、Question Time 等，所有视频资料加起来约有 11.8 万句话。

谷歌DeepMind 和牛津大学的联合研究团队使用了 2010 年 1 月至 2015 年 12 月间的电视节目素材对 AI 系统进行训练，然后使用 2016 年 3 月- 9 月间播出的节目进行 AI 性能测试。

BBC节目数据库。从左至右分别为：频道、节目名称、小时数、句数

通过观察节目中说话者的唇形，AI 系统可以准确解读出文字，比如下面这些比较“拗口”的句子：“我们知道也将有上百位记者会出席”（We know there will be hundreds of journalists here as well），以及“根据国家统计局的最新统计数据”（According to thelatest figures from the Office of National Statistics）。

DT 君试读了以上英文语句，发现唇形变化其实并不明显，而且电视节目中的语速是非常快的，难度可想而知。

BBC节目数据库中无字幕原片

由谷歌DeepMind AI系统通过唇读同步的字幕

AI能力再升级

测试结果的具体数据可能更能说明问题：在 2016 年 3 月-9 月的节目库中随机选取的 200 个说话场景唇读对比测试中，人类专家的完全准确率为12.4%，而AI的完全准确率为46.8%。

而且 AI 所错误中有很多其实无关紧要，比如在复数后面漏掉一个“s”之类。不过哪怕是这样，AI 还是完虐了人类唇读专家。

人工智能业内专家称，“这绝对是建构全自动唇读系统的第一步！现有的各类庞大数据库完全可以支持深度学习技术的发展。”

上方彩色图片为BBC节目数据库原始静态图片，下方黑白图片为两个不同的人说出“afternoon”（下午）这个单词时的唇型

两周前，牛津大学曾开发了一个类似的深度学习系统LipNet，这套系统当时就已93.4%对52.3%大比分击败了人类唇读专家，但还不太说明问题，毕竟，LipNet和人类的竞赛是基于GRID语料库，这个数据库只包含51个特殊词汇。

而DeepMind这次选取的BBC节目数据库却包含了惊人的17500个特殊词汇，对人工智能来说，这无疑是艰巨的挑战。

GRID语料库中的音视频数据相对简单得多

除此之外，BBC节目数据库中包含了人类在正常说话时使用的各种语法，而GRID语料库的33000个句子都采用相同表达，这使得句子很容易被预测，难度也相对低得多。

DeepMind和牛津大学的研究团队将开放BBC节目数据库供同行使用。来自LipNet的 Yannis Assael 表示将率先使用这一数据库来训练自己的唇读AI系统。

把嘴唇排列起来

如果要通过 BBC 节目这一类的视频数据库来训练自动唇读系统，必须要让机器预先学习每一个视频片段。可问题是，节目中的视频流与音频流往往不是完全同步的，甚至会出现多达1秒左右的时间差。

简单地说，这会让机器彻底蒙圈，因为视频里出现的唇形没办法和音频完美贴合，机器就无法将某一特定唇形和其发音对号入座。这样看来，AI 学习唇读术好像是不可能的。

解决这一问题的方案是让计算机先学会那些完全同步的音视频流，掌握发音与唇形间的关联，然后自行推断音视频流中那些画面是不同步的，再进行自动修正。DeepMind的 AI 系统自动处理的 5000 小时音视频流就是采用的这种方法。如果完全使用人工来进行同步校准，工作量简直大到不可想象。

DeepMind采用的“看、听、尝试、拼写”架构。首先解码出一个特征yi及两个向量，再通过向量去定位对应的输入音频视频流序列

好了，问题来了，AI 唇读本事这么大，到底会被用来干嘛？DT 君脑子里首先出现的画面就是：“天网”默默监视着全人类的谈话，只要看看嘴型就知道你在说什么……

虽然细思恐极，但专家说了，说到监听这事儿，与其如此大动干戈，还不如超远程监听麦克风来得简单直接效果好。所以，目前来看，没什么好害怕的。

相比之下，AI 唇读技术更可能的应用方向是消费类电子设备，可以让设备知道用户想要说什么，哪怕不发出声音。“动动嘴皮子”这种事儿搞不好会成为未来人机交互的常态。

来自牛津大学 LipNet 研究团队的Yannis Assael对此技术的评价是：“我们相信AI唇读技术是一种非常实用的辅助性技术，比如更智能的助听器、不便出声的公共场合（Siri再也不用听见你的声音了），以及在嘈杂环境下精准的语音识别等。”

最后，小编拿出彩蛋一枚，供各位测试唇读之用。

参考素材：

https://www.newscientist.com/article/2113299-googles-deepmind-ai-can-lip-read-tv-shows-better-than-a-pro/

本文由DeepTech深科技（ID:mit-tr）授权转载，作者：十三、星际宝贝

谷歌发布 Zero-Shot 神经机器翻译系统：

AI 巴别塔有望成真

（文／Mike Schuster，Melvin Johnson，Nikhil Thorat）过去10年中，谷歌翻译已从仅支持几种语言发展到了支持 103 种，每天翻译超过了 1400 亿字。为了实现这一点，我们需要构建和维护许多不同的系统，以便在任何两种语言之间进行转换，由此产生了巨大的计算成本。神经网络改革了许多领域，我们确信可以进一步提高翻译质量，但这样做意味着重新思考谷歌翻译背后的技术。

今年 9 月，谷歌翻译改为启用谷歌神经机器翻译（GNMT）的新系统，这是一个端到端的学习框架，可以从数百万个示例中学习，并在翻译质量方面有显著提升。不过，虽然启用 GNMT 的几种语言翻译质量得到了提升，但将其扩展到所有 103 种谷歌翻译支持的语种，却是一个重大的挑战。

实现零数据翻译（Zero-Shot Translation）

在论文《谷歌多语言神经机器翻译系统：实现零数据翻译》（Google’s Multilingual Neural Machine Translation System: Enabling Zero-Shot Translation）中，我们通过扩展以前的 GNMT 系统解决这一挑战，使单个系统能够在多种语言之间进行翻译。我们提出的架构不需要改变基本的 GNMT 系统，而是在输入句子的开头使用附加的“token”，指定系统将要翻译的目标语言。除了提高翻译质量，我们的方法还实现了“Zero-Shot Translation”，也即在没有先验数据的情况下，让系统对从未见过的语言进行翻译。

下图展示了最新 GNMT 的工作原理。假设我们使用日语和英语以及韩语和英语之间相互翻译为例，训练一个多语言系统，如动画中蓝色实线所示。这个新的多语言系统与单个 GNMT 系统大小一样，参数也一样，能够在日英和韩英这两组语言对中进行双语翻译。参数共享使系统能够将“翻译知识”（translation knowledge）从一个语言对迁移到其他语言对。这种迁移学习和在多种语言之间进行翻译的需要，迫使系统更好地利用其建模能力。

由此，我们想到：能够让系统在从未见过的语言对之间进行翻译吗？例如韩语和日语之间的翻译，系统并没有接受过日韩之间翻译的训练。但答案是肯定的——虽然从来没有教过它但，新的系统确实能够生成日韩两种语言之间合理的翻译。我们将其称为“零数据”（zero-shot）翻译，如动画中的黄色虚线所示。据我们所知，这还是首次将这种类型的迁移学习应用机器翻译中。

零数据翻译的成功带来了另一个重要的问题：系统是否学会了一种通用的表征，其中不同语言中具有相同意义的句子都以类似的方式表示，也即所谓的“国际通用语”（interlingua）？使用内部网络数据的三维表征，我们能够看见系统在翻译日语、韩语和英语这几种语言时，在各种可能的语言对之间进行转换（比如日语到韩语、韩语到英语、英语到日语等等）时，内部发生的情况。

上图中的（a）部分显示了这些翻译的总体几何构成。图中不同颜色的点代表不同的意思；意思相同的一句话，从英语翻译为韩语，与从日语翻译为英语的颜色相同。我们可以从上图中看到不同颜色的点各自形成的集合（group）。（b）部分是这些点集的其中一个放大后的结果，（c）部分则由原语言的颜色所示。在单个点集中，我们能够看到日韩英三种语言中，拥有相同含义的句子聚在一起。这意味着网络必定是对句子的语义进行编码，而不是简单地记住短语到短语之间的翻译。由此，我们认为这代表了网络中存在了一种国际通用语（interlingua）。

我们在论文中还写下了更多的结果和分析，希望这些的发现不仅能够帮助从事机器学习或机器翻译的研究人员，还能对于语言学家和对使用单一系统处理多语言感兴趣的人有用。

最后，上述多语言谷歌神经机器翻译系统（Multilingual Google Neural Machine Translation）从今天开始将陆续为所有谷歌翻译用户提供服务。当前的多语言系统能够在最近推出的16个语言对中的 10 对中进行转化，提高了翻译质量，并且简化了生产架构。

商业部署后，实现技术上的突破

正如前文所说，今年 9 月，谷歌宣布对部分语种启用谷歌神经机器翻译（GNMT）的新系统，并在几种率先使用的测试语种（包括汉语）翻译质量方面得到了显著提升。下面的动图展示了 GNMT 进行汉英翻译的过程。首先，网络将汉字（输入）编码成一串向量，每个向量代表了当前读到它那里的意思（即 e3 代表“知识就是”，e5 代表“知识就是力量”）。整句话读完之后开始解码，每次生成一个作为输出的英语单词（解码器）。

要每一步生成一个翻译好的英语单词，解码器需要注意被编码中文向量的加权分布中，与生成英语单词关系最为密切的那个（上图中解码器 d 上面多条透明蓝线中颜色最深的那条），解码器关注越多，蓝色越深。

使用人类对比评分指标，GNMT 系统生成的翻译相比此前有了大幅提高。在几种重要语言中，GNMT 将翻译错误降低了 55%-58%。

不过，当时也有很多研究人员认为，当时谷歌翻译取得的“里程碑”，与其说是技术突破，不如说是工程上的胜利——大规模部署本身确实需要软硬件方面超强的实力，尤其是想谷歌翻译这样支持 1 万多种语言的商业应用，对速度和质量的要求都非常的高。但是，神经机器翻译的技术早已存在，借鉴了语言和图像处理方面的灵感，是多种技术的整合。

现在，只用了大约 2 个月的时间（论文首次上传到 arXiv 是 11 月 14 日），谷歌翻译和谷歌大脑团队就实现了技术上的突破——让系统在从未见过的语言对之间进行翻译，也即所谓的“zero-shot translation”。

不仅如此，谷歌研究人员还在论文最后做了分析，新的模型代表了实现一种“国际通用语”模型的可能。有评论称，这可以说是实现“巴别塔”的第一步。

谷歌神经机器翻译系统架构

就在几天前，国外研究员 Smerity 在他的博客上发布了一篇分析谷歌神经机器翻译（GNMT）架构的文章，在 HackerNews、Reddit 等网站都引发了很多讨论。

Smerity 在博文中指出，GNMT 的架构并不标准，而且在很多情况下偏离主流学术论文中提出的架构。但是，根据谷歌特定的需求，谷歌修改了系统，重点保证系统的实用性而并非追求顶尖结果。

【论文】谷歌的多语言神经机器翻译系统：实现 zero-shot 翻译

【摘要】我们提出了一种使用单一神经机器翻译（NMT）模型，在多语种之间进行翻译简洁而优雅的解决方案。不需要修改谷歌现有的基础系统模型架构，而是在输入句子的前面加入人工标记（token）明确其要翻译成的目标语言。模型的其他部分（包括编码器、解码器和注意模型）保持不变，而且可以在所有语言上共享。使用一个共享的 wordpiece vocabulary，这种方法能够使用单一模型实现多语种神经机器翻译，而不需要增加参数，相比此前提出的方法更为简单。实验表明，这种新的方法大部分时候能提升所有相关语言对的翻译质量，同时保持总的模型参数恒定。

在 WMT' 14 基准上，单一多语言模型在英法双语翻译上实现了与当前最好技术相同的结果，并在英德双语翻译上超越当前最佳的结果。同时，单一多语言模型分别在 WMT'14 和 WMT'15 基准上，超越了当前最佳的法英和德英翻译结果。在用于生产的语料库上，多达 12 个语言对的多语言模型能够实现比许多单独的语言对更好的表现。

除了提升该模型训练所用的语言对的翻译质量之外，新的模型还能在训练过程中将没有见过的语言对相互联系起来（bridging），表明用于神经翻译的迁移学习和零数据翻译是可能的。最后，我们分析了最新模型对通用语言间表征的迹象，还展示了一些混合语言时会出现的有趣案例。

编译来源：

https://research.googleblog.com/2016/11/zero-shot-translation-with-googles.html

http://smerity.com/articles/2016/google_nmt_arch.html?

本文由新智元（ID:AI_era）授权转载，来源： Google Research，作者：Mike Schuster (Google Brain), Melvin Johnson (Google Translate) and Nikhil Thorat (Google Brain )，编译：李静怡

谷歌又逆天了，不只能隔空操作

还能隔空感应物体

是滴，今天的主角又双叒叕是谷歌。。

大家还记不记得之前介绍过的谷歌隔空操作技术——Project Soli

简单介绍——

这是谷歌去年在Google I/O 2015现场推出的手势操作感应技术，能利用微芯片雷达精准识别出细微的手指活动，并以此来操控各种设备。

小巧的身材可以装进各种智能设备里。。

比如——搓搓手指，就能查看地图

捏捏空气，就能调节音量

关键是，这并不是概念产品！

在今年的I/O 2016上，谷歌第一次让我们看到这个技术的实际应用。。

隔空操作LG智能手表

而如今，这款带给人们全新体验的黑科技迎来了新的革新。。

不仅能隔空操作，还能隔空识别物体！

这款装置名叫——RadarCat

这是由苏格兰圣安德鲁斯大学的研究人员，使用Project Soli开发的一款可以识别物体的设备。

简单的说——它可以自动识别你拿的物体是什么！

举个栗子——自动识别，一块木头

识别装在杯子里的液体是水

还是可乐

CD、书什么的都没问题

手机型号，是正面反面都能分辨出来

甚至连物体的成分都能显示出来

更神奇的是，

靠近人体时甚至还能识别出到底是位于哪一个部位！

然后打开关联好的设置——放在手背，显示时间

放在肚子，打开美食APP

放在大腿，打开谷歌地图

这也太逆天了吧！

至于原理——

和普通雷达一样，通过发射电磁波，计算电磁波遇到物体并反射回来的时间，来测量物体和形状和与物体之间的距离。RadarCat融入了先进算法，不仅能够检测到外部对象、还可根据内部结构对物体进行识别。

这项技术未来或许可以被用于垃圾回收设施，以更好地帮助分类垃圾，甚至可以用来帮助盲人感知更多物体。。

嗯，未来无限可能。。

来源：最黑科技（zuiheikeji），作者：黑君

一网打尽系列文章，请回复以下关查看：

热点专题：军民融合 | 民参军 | 工业4.0 | 商业航天 | 智库 | 国家重点研发计划 | 基金 | 装备采办 | 博士 | 摩尔定律 | 诺贝尔奖 | 国家实验室 | 国防工业 | 十三五

预见未来：预见2016 | 预见2020 | 预见2025 | 预见2030 | 预见2035 | 预见2045 | 预见2050 |

前沿科技：颠覆性技术 | 生物 | 仿生 | 脑科学 | 精准医学 | 基因 | 基因编辑 | 虚拟现实 | 增强现实 | 纳米 | 人工智能 | 机器人 | 3D打印 | 4D打印 | 太赫兹 | 云计算 | 物联网 | 互联网+ | 大数据 | 石墨烯 | 能源 | 电池 | 量子 | 超材料 | 超级计算机 | 卫星 | 北斗 | 智能制造 | 不依赖GPS导航 | 通信 | MIT技术评论 | 航空发动机 | 可穿戴 | 氮化镓 | 隐身 | 半导体

先进武器：中国武器 | 无人机 | 轰炸机 | 预警机 | 运输机 | 战斗机 | 六代机 | 网络武器 | 激光武器 | 电磁炮 | 高超声速武器 | 反无人机 | 防空反导 | 潜航器 |

领先国家：俄罗斯 | 英国 | 日本 | 以色列 | 印度

前沿机构：战略能力办公室 | DARPA | Gartner | 硅谷 | 谷歌 | 华为 | 俄先期研究基金会

前沿人物：钱学森 | 马斯克 | 凯文凯利 | 任正非 | 马云

专家专栏：黄志澄 | 许得君 | 施一公 | 王喜文 | 贺飞 | 李萍 | 刘锋 | 王煜全 | 易本胜 | 李德毅 | 游光荣 | 刘亚威 | 赵文银

全文收录：2016文章全收录 | 2015文章全收录 | 2014文章全收录

其他主题系列陆续整理中，敬请期待……

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

谷歌最前沿：人工智能唇读术、多语言神经机器翻译、隔空感应物体

谷歌人工智能唇读术完虐人类，仅凭5千小时电视节目！

人类古老的技艺再次沦陷

谷歌又逆天了，不只能隔空操作

还能隔空感应物体

您可能也对以下帖子感兴趣

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

法明传[2024]173号：1月1日起，未用示范文本提交起诉状，部分法院将不予立案

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

法明传[2024]173号：关于加快推进起诉状、答辩状示范文本全面应用工作的通知(附下载链接)

2025.1.1起，全国法院全面推进应用民事起诉状、答辩状示范文本(附下载链接)

生成图片，分享到微信朋友圈

谷歌最前沿：人工智能唇读术、多语言神经机器翻译、隔空感应物体

谷歌人工智能唇读术完虐人类，仅凭5千小时电视节目！

人类古老的技艺再次沦陷

谷歌又逆天了，不只能隔空操作

还能隔空感应物体

您可能也对以下帖子感兴趣